Day2 GPT / LLM 模型和神經架構

2025 iThome 鐵人賽

DAY 2

AI & Data

AI初學者入門系列第 2 篇

17th鐵人賽

kitty71336

團隊新手小黑

2025-08-04 13:11:41

308 瀏覽

分享至

LLM（大型語言模型，Large Language Model):

指擁有「上億到千億參數」的深度學習模型，能理解並生成自然語言。LLM是總稱，常見的有GPT 系列、BERT、T5、LLaMA……得模型。

GPT（Generative Pre-trained Transformer, 生成式預訓練模型）:

目標是根據「前面的文字」預測「下一個字」，藉此產生連貫的語句。
它由兩個階段構成：

Pre-training 預訓練：使用大量網路文字學習語言知識。
Fine-tuning 微調：根據特定任務（如翻譯、問答）進行進一步訓練。

GPT 是 Transformer 架構的應用，所以只具備「Decoder-only」的單向架構。

基本的神經架構名詞

CNN（Convolutional Neural Network):

最初是為了圖像識別而設計（如 LeNet、AlexNet）
2014 年被提出可以用來處理 NLP 問題，如文本分類，透過卷積核提取局部特徵（例如詞組、片語）
限制: 難以處理上下文關聯

RNN（Recurrent Neural Network）

傳統全連接神經網路（Feedforward）無法處理時間序列，所以發展出「時間步進（Time Step）」，就是有時間順序的
缺點: 隨著時間記憶慢慢消失
1. 長期依賴問題（Long-Term Dependency Problem）
2. 容易出現「梯度消失 / 爆炸」

LSTM（Long Short-Term Memory）

為了解決 RNN 記憶不住長距離資訊
加入記憶單元（cell state）與三個門控機制: 遺忘門、輸入門、輸出門，才能夠「選擇性地保留或遺忘資訊」
缺點是訓練時間長(逐字處理)、無法並行化(多個資料不能一起處理)

Transformer

完全捨棄 RNN 結構，改用「Self-Attention 機制」: 同時關注整句中任意位置的詞和具備並行運算能力
Transformer 在性能與語言理解上全面超越 RNN，是目前 NLP 主流架構，發展出BERT、GPT、T5
、BART、XLNet、LLaMA、ChatGPT……

補充:

Token 是什麼？
指語言模型處理文字的最小單位，也就是電腦可以看得懂的最小單位。
操作順序為將文字轉換成 Token → 轉換成向量~~以後章節會提到

Encoder 和 Decoder 是什麼 ?
是兩個基本結構單元，用來「理解輸入」和「生成輸出」

Decoder-only: 生成式任務 (對話、寫作、摘要)
主要用途: 依序預測下一個 token
Encoder-only: 專注理解輸入（雙向）
主要用途: 分類、NER、情感分析
Encoder-Decoder: 編碼輸入 → 解碼輸出，適合輸入和輸出都有語意任務
主要用途: 翻譯、摘要、問答、語意轉換

Day1 AI 概論與應用場景

Day3 介紹Hugging Face

系列文

AI初學者入門共 30 篇

RSS系列文訂閱系列文

8 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19867 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

AI初學者入門系列 第 2 篇